Optimización de políticas sin línea base para optimización combinatoria neuronal
Descubre cómo GRPO evita el colapso del entrenamiento en optimización combinatoria neuronal sin necesidad de línea base, mejorando la estabilidad en problemas de ruteo como TSP y CVRP.